Il dataset è stato individuato su Kaggle. Diversamente da come citato dall’autore, il dataset globale propone solo una frazione di dati nell’arco temporale previsto, per cui l’analisi si concentrerà più nello specifico per ogni piattaforma su quattro mesi 🗓️ del 2022: giugno, settembre, novembre e dicembre, oltre che su una panoramica generale del 2022 sempre distinta per le tre piattaforme.
Il dataset possedeva fin dall’inizio moltissime criticità 🤯, in primo luogo la presenza di features incompatibili tra dataset della stessa piattaforma. Nelle diverse fasi di produzione, poi, un’altra problematica riscontrata è stata la scoperta di valori errati o incoerenti. È stato fatto chiaramente un lavoro di formattazione dovuto dei dataset (trasformazioni M e K). Questa fase di refactoring si è protratta anche durante tutta la fase di messa a punto del markdown che ha rallentato le tempistiche di realizzazione creando non pochi disagi😡.